A Google Project Astra, Veo és Gemini Frissítési Harc az AI Fejlesztésekért
Ez a Google válasza az OpenAI-ra.
Egy általános AI, egy AI, amelyet valóban nap mint nap használni lehet, ciki lenne sajtótájékoztatót tartani, ha most nem így van.
Május 15-én, hajnalban megkezdődött a technológiai világ éves "Tavaszi Fesztivál Gálája", a Google I/O Fejlesztői Konferencia. Hányszor említették a mesterséges intelligenciát a 110 perces fő előadásban? A Google összesítette:
Igen, az AI-ról minden percben beszélnek.
A generatív AI versenye nemrég új csúcsra érkezett, és az I/O konferencia tartalma természetesen a mesterséges intelligencia körül forog.
„Egy évvel ezelőtt ezen a színpadon osztottuk meg először terveinket a natív multimodális nagyméretű modellről, a Geminiről. Ez jelentette az I/O új generációját” – mondta Sundar Pichai, a Google CEO-ja. „Ma reméljük, hogy mindenki profitálhat a Gemini technológiájából. Ezek az áttörő funkciók behatolnak a keresésbe, képekbe, termelékenységi eszközökbe, Android rendszerekbe és sok más aspektusba.”
Jelenleg mind a 1.5 Pro, mind az 1.5 Flash elérhető nyilvános előzetesben, és 1 millió token kontextusablakot kínál a Google AI Stúdióban és a Vertex AI-ban. Most a 1.5 Pro is biztosít egy 2 millió token kontextusablakot a fejlesztők számára, akik az API-t és a Google Cloud ügyfeleit várólistán keresztül használják.
Továbbá, a Gemini Nano-t tiszta szöveges bemenetről képbemenetre bővítették. Az év végén, a Pixellel kezdve, a Google elindítja a multimodális Gemini Nano-t. Ez azt jelenti, hogy a mobilfelhasználók nemcsak szöveges bemenetet dolgozhatnak fel, hanem több kontextuális információt is megérthetnek, például vizuális, hang- és beszélt nyelvet.
A Gemini család új taggal bővül: Gemini 1.5 Flash
Az új 1.5 Flash a sebesség és hatékonyság optimalizálására készült.
Új Generációs Nyílt Forrású Nagy Modell Gemma 2
Ma a Google is kiadott egy sor frissítést az open source nagy modell Gemma-ra – itt a Gemma 2.
Ahogy bemutatták, a Gemma 2 egy új architektúrát használ, amely a forradalmi teljesítmény és hatékonyság elérésére törekszik, az új nyílt forráskódú modellparaméterek 27B.
Ha hosszú videókról van szó, a Veo akár 60 másodpercnél hosszabb videókat is elő tud állítani. Ezt egyetlen prompt vagy egy sor prompt segítségével teheti meg, amelyek együtt mesélnek el egy történetet. Ez kulcsfontosságú a videógeneráló modellek alkalmazásához a film- és televíziós produkciókban.
A Veo a Google vizuális tartalomgenerálás terén végzett munkáján alapul, beleértve a Generatív Kérdőhálózatot (GQN), DVD-GAN, Kép-a-Videó, Phenaki, WALT, VideoPoet, Lumiere és másokat.